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批量 正则 化 DBN 分 类 方法 研究 “ 


Fi R 威 , 戴 € 
(江南 大 学 物 联 网 工程 学 院 , 江苏 无 锡 214122) 


jj 38: 针对 深度 置信 网 络 (DBN) 在 微调 过 程 中 易 受 训练 参数 影响 的 问题 ， 提 出 一 种 批量 正则 化 DBN 分 类 方法 
(BNDBN)。 该 方法 首先 利用 DBN 进行 无 监督 学 习 以 获得 原始 数据 的 高 层次 表达 ; 然后 通过 引入 尺度 变换 和 平移 变 
换 参 数 对 网 络 中 间 层 的 输出 特征 每 一 维 进行 批量 正则 化 处 理 ; 并 将 处 理 后 的 特征 输入 到 非 线 性 变换 激活 层 中 ; 最 后 使 
用 随机 梯度 下 降 法 对 仿 射 变换 参数 以 及 原始 网 络 的 参数 进行 训练 学 习 。BNDBN 方法 减少 了 梯度 对 参数 规模 的 依赖 性 ， 
有 效 解 决 了 因 网 络 参 数 变 化 而 造成 的 激活 函数 值 分 布 变 化 的 问题 ， 提 高 了 训练 效率 。 为 了 检验 所 提出 方法 的 有 效 性 ， 
选取 MNIST 手写 体 数据 库 和 USPS 手写 数字 识别 库 进 行 测试 , 通过 与 Dropout-DBN、DBN、ANN、SVM.、 KNN 对 比 ， 
结果 表明 ， 提 出 的 方法 分 类 准确 率 明 显 提高 ， 具 有 更 强 的 特征 提取 能 力 。 

关键 词 : 深度 置信 网 络 ; 分 类 ; 无 监督 学 习 ; 尺度 变换 ; 平移 变换 ; 批量 正则 化 
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Research on batch regularization DBN classification method 


Li Beibei, Song Wei, Dai Xin 
(Institute of Intelligent Systems & Network Computing, School of Internet of Things Engineering, Jiangnan University, Wuxi 
Jiangsu 214122, China) 


Abstract: Aiming at the problem that the deep belief network (DBN) is susceptible to the training parameters during the fine- 
tune process, this paper proposed a kind of batch normalization DBN classification method (BNDBN) . Firstly, this method used 
unsupervised learning to obtain high-level representation of raw data. Then through the introduction of scale transformation and 
translation transformation parameters, it processed the output characteristics of each layer by batch normalization. And it fed the 
post-processing characteristics into the nonlinear transformation activation layer. Finally, it trained and studied the parameters 
of the affine transformation and the original network by using the stochastic gradient descent method. The BNDBN method 
reduced the dependence of the gradient on the parameter size, which effectively resolved the problem of changing the value 
distribution of activation function caused by the change of network parameters and improves the training efficiency. To verify 
the effectiveness of the proposed method, it selected MNIST handwritten database and the USPS handwritten digital 
identification library for testing. Compared with the Dropout-DBN, DBN, ANN, SVM and KNN, the results show that the 
proposed method significantly improved the classification accuracy and had stronger feature extraction ability. 


Key Words: deep belief network; classification; unsupervised learning; scale transformation; translation transformation; batch 


normalization 
0 az 动 学 习 特征 和 数据 降 维 中 的 优势 ， 己 经 成 为 深度 学 习 应 用 最 广 
泛 的 网 络 结构 ， 目 前 ，DBN 在 语音 识别 和 内、 图 像 分 类 辐 、 人 脸 
Hinton 等 人 于 2006 年 提出 了 深度 置信 网 络 (deep belief 识别 四 等 相关 领域 都 取得 了 突破 性 的 进展 。 
networks，DBN) 以 及 无 监督 贪 禁 逐 层 训 练 算 法 止 ， 为 解决 深度 前 ， 数 据 集 规模 日 益 扩大 ， 更 复杂 、 更 深层 次 的 体系 结 
神经 网 络 的 优化 难题 带 来 了 希望 。DBN 是 一 个 概率 生成 模型 站， ” 构 被 提出 ， 使 得 网 络 训 练 变 得 更 加 困难 ， 这 就 需要 更 有 效 的 训 
通过 “ 逐 层 初始 化 ”克服 了 训练 上 的 难度 , 它 处 理 高 维 输入 的 能 — 练 方式 。 但 仅仅 适应 庞大 的 数据 集 


是 
力 使 其 成 为 固有 数量 维度 的 任务 的 理想 选择 。 因 DBN RAA ” 度 置 信和 网络 中 ， 有 监督 微调 也 是 不 容 忽 


远 远 不 够 的 ， 特 别 是 在 深 
忽视 的 一 个 阶段 。 随 机 梯 
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录用 稿 FEE, F: 批量 正则 化 


度 下 降 CSGDO 中 是 微调 深度 置信 网 络 最 有 效 的 方法 之 一 ， 

Adagrad 和 动量 四 等 方面 已 经 有 了 新 的 改进 。 文 献 [10] 提 出 一 
种 高 效 自然 梯度 的 深层 神经 网 络 并 行 训 练 算法 应 用 在 图 像 分 类 
中 ， 有 效 地 提高 了 算法 的 收敛 性 ， 文献 [11,12] 分 别提 出 了 
Dropout 和 DropConnect 算法 , 其 主要 目的 在 于 引入 稀疏 性 到 网 
络 模型 中 , 减弱 了 神经 元 节点 间 的 联合 适应 性 , 防止 过 度 拟 合 ; 
文献 [13] 则 将 Dropout 算法 引入 到 DBN 的 微调 过 程 ， 以 提高 网 该 模型 产生 可 见 层 节点 和 隐藏 层 节点 的 条 件 概率 如 下 : 


Elv,h|0) = as Son 六 a) 
ial ja 


i=l j=l 


其 中 : 07 Wa b. W, 是 可 见 层 和 隐藏 层 之 间 的 权重 矩阵 ， 


a; 表示 可 见 层 节点 的 偏 置 ， 表示 隐藏 层 节点 的 仿 


络 的 泛 化 能 力 和 分 类 判别 性 ; 文献 [14~16] 通 过 元 启发 式 搜索 算 mar » 
法 及 其 变种 算法 来 微调 DBN 的 参数 ， 以 获得 近似 最 优 解 ， 避 ge 
免 了 陷入 局 部 最 优 的 问题 f f PaL- Ly, erea " 
在 DBN 的 微调 阶段 ， 优 化 目标 是 最 小 化 给 定 标签 和 网 络 A 
输出 之 间距 离 的 损失 函数 ， 虽 然 这 些 算法 的 改进 不 同 程度 的 提 当 给 定 可 见 层 节点 的 状态 时 ， 各 隐藏 层 节点 之 间 的 激活 状 
高 了 网 络 训练 效果 ， 但 仍然 对 模型 超 参 数 敏感 ， 需 要 更 小 心 的 。” 态 是 条 件 独立 的 ， 故 第 j 个 隐藏 层 节点 的 激活 状态 为 
初始 化 。 因 为 每 一 层 网 络 的 输入 都 是 用 所 有 的 下 层 参数 来 计算 "NT " 
的 ， 所 以 下 层 某 个 参数 的 微小 改变 有 可 能 随 着 网 络 层 数 的 增加 
而 被 逐 层 放 大 ， 那 么 该 层 网 络 需要 拟 合 新 的 分 布 ， 以 使 网 络 达 1 
到 稳定 状态 ， 这 增加 了 网 络 训练 的 复杂 度 ， 降 低 了 网 络 的 训练 TOT quee) ARIEN sigmoid WARM. 当 给 定 隐 
速度 ， 甚 至 导致 深层 网 络 的 效果 反而 不 如 浅 层 网 络 。 茂 层 节点 的 状态 时 ， 第 个 可 见 层 节点 的 激活 状态 为 
为 了 解决 传统 DBN 训练 方法 存在 的 不 足 ， 结 合 批量 正则 Poilis Whata) E 
化 算法 (batch normalization) 0 的 优点 ， 本 文 提 出 了 一 种 批量 j 
正则 化 DBN CBNDBNO 分 类 方法 。 该 方法 引入 了 尺度 变换 和 DBN 训练 过 程 包括 预 训练 和 微调 阶段 : 根据 输入 数据 对 网 


平移 变换 参数 ， 经 过 变换 重 构 可 以 恢复 原始 网 络 所 学 习 的 特征 络 进行 预 训练 , 选用 对 比 散 度 (contrastive divergence, CD-k) 算 
分 布 ， 使 得 BNDBN 与 DBN 相 比 具有 稳定 的 网 络 性 能 。 通 过 法 09 无 监督 的 自 底 单独 训练 每 一 层 RBM, 得 到 相应 的 权 值 
对 MNIST 和 USPS 手写 数字 识别 库 分 类 的 实验 分 析 ， 与 和 偏 置 ， 最 终 获 得 数据 的 高 层次 特征 ;再 利用 自 顶 向 下 的 有 
Dropout-DBN, DBN， 人 工 神经 网 络 (ANN), 支持 向 量 机 (SVM) 督学 习 - 反 向 传播 (back propagation,BP ) 算 法 2 微调 整个 网 络 ， 
和 近 领 方法 (KNN) 算 法 进行 对 比 ， 证 明了 本 文 方法 具有 更 优 使 DBN 模型 能 很 好 地 拟 合 输入 数据 。 结 构 如 图 2 所 示 。 

的 分 类 准确 率 。 


1 ”相关 工作 


1.1 深度 置信 网 络 

DBN 是 一 种 概率 生成 模型 , 可 以 看 成 是 由 多 个 受 限 玻 尔 效 
曼 机 (restricted boltzmann machine, RBM) USHE m RARE 
网 络 。 RBM 是 一 种 对 称 连 接 的 随机 神经 网 络 , 该 网 络 由 可 见 层 
v 和 隐藏 层 h 组 成 ， 如 图 1 所 示 。 


a 


[T 


Vs 
Im. 


图 2 DBN 训练 结构 


1.2 Softmax 分 类 器 

如 果 将 深度 置信 和 网络 应 用 在 分 类 上 ， 需 要 在 网 络 的 最 后 一 
刁 加 入 分 类 器 。 为 了 使 网 络 应 用 更 广泛 ， 本 文 使 用 Softmax 分 
类 器 来 进行 分 类 。 

对 于 训练 集 {(x ,yy ), (x, yP) (Ay RA 

RBM 是 基于 能 量 的 模型 , 可 见 层 和 隐藏 层 的 能 量 函 数 公式 Y 取 k 个 不 同 的 值 ， 表 示 有 个 类 别 。 设 pO jl) 表示 输入 x 
如 下 : 的 情况 下 ， 样 本 被 判 为 类 别 J 的 概率 。 所 以 对 于 一 个 类 的 分 


图 1 RBM 网 络 结构 图 
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类 器 ， 输 出 是 


个 大 维 


po =1| x?;8) 
po = zs 2| x; 9) 


的 向 量 ( 向 量 的 元 素 和 为 1 )， 输 出 为 


hg(x()) = 
|»? i.a) 
. 6 
exp(Of x?) 5 
Z 1 exp(07 x?) 
k 
Sexpo? x?) i 
ja exp( 6j x®) 
其 中 :09 是 一 个 和 矩阵， 每 一 行 看 做 是 一 个 类 别 所 对 应 分 类 器 的 
1 
参数 ， 共 k 行 。 Sa NTINOHGU 化 ， 从 而 
使 所 有 的 概率 之 和 为 1。 因此 ，Softmax 分 类 器 的 代价 函数 为 
0x (i) 
16---Y Y^ = jlog- a 0 
Hi jA S exp" a) 
Iz 
其 中 : 1 是 一 个 指示 性 函数 ， 即 1{ 值 为 真 的 表达 式 }=1，1{ 值 


为 假 的 表达 式 }=0。 本 文 使 


求解 。 


梯度 下 降 算 法 来 最 小 化 代价 函 


数 


2 ”基于 批量 正则 化 的 DBN 分 类 方法 


2.1 


(batch normalization, BN) U72U4riE x; H 


传统 的 了 


而 BN 算法 对 网 络 中 每 


处 理 


,并 


导致 改变 
维 的 输入 数据 x ， 


NEG 


参数 。 


时 ， 


H 4&1 


通过 


批量 正则 化 算法 
于 传统 J 


E 则 化 算法 是 对 网 络 中 每 层 


E 则 化 算法 不 是 处 处 连续 求 导 


， 批 量 正 则 化 


后 的 输入 无 法 完整 表达 


BN 


变换 重 构 使 得 数据 也 会 
保持 了 模型 的 表达 能 力 。 
y? = Var[x ? ] B 4i A HO basi 
可 以 完全 恢复 


"v EXETT 


。 首先 ， 


合 正 则 化 ， 


层 的 每 个 标量 特有 


下 进行 独立 正则 
合 入 的 样本 分 批 进行 处 理 。 
其 次 ， 因 为 每 层 网 络 的 输入 随 着 训练 参数 的 改变 而 


化 方法 


算法 引入 了 


原 有 输入 特征 。 


对 于 菜 一 层 k 


尺度 变换 参数 XY 和 平移 变换 
落 入 非 线 性 分 布 中 ， 从 而 
经 过 参数 的 训 
2$. p? EDO] BUS AR 


Hxc. 8 
期 望 值 


原始 网 络 所 要 学 习 的 特征 


2.2 批量 正则 化 DBN 结构 


化 而 变化 ， 增 加 了 | 
布 在 训练 过 程 中 保 
中 会 降低 出 现 问 题 的 可 外 
正则 化 算法 。 


在 传统 DBN 微调 过 


程 中 ， 


村 更 加 稳定 的 状态 ， 


3 所 示 。 


分 布 。 


每 层 输入 分 布 会 随 着 参数 的 变 
网 络 的 训练 复杂 度 。 如 果 让 非 线 性 输入 的 分 
那么 优化 DBN 的 过 程 
性 。 因 此 本 文 在 微调 阶段 中 引入 批量 
BNDBN 结构 如 图 


BNDBN 方法 可 以 减少 梯度 对 参数 大 小 或 初始 值 的 依赖 。 


传统 方法 


消失 、 


lf 


了 迭代 更 新 网 络 参 数 时 ， 
陷入 局 部 极 小 值 等 问题 


过 高 的 学 习 率 会 导致 梯度 


FEE, F: 批量 正则 化 


正则 化 处 理 ， 通 过 变换 重 构 将 每 层 的 数据 分 布 转变 为 稳定 的 
标准 正 态 分 布 ， 防 止 参数 的 微小 变化 通过 深层 网 络 后 扩大 为 梯 


ig 


度 的 次 优 变 化 ， 使 得 网 络 训练 时 将 不 会 受 参 数 范围 的 影响 。 
IO) 
E E Softmax f 
| h | ]u 
| EY K p 
RBM2 | W, 层 x 
aim un S 
| hee we 
RBMI W, = 
* v Z 
v à 
A BN 层 BN 
p fwa m 
输入 数据 
(a) 预 训练 (b) 进 一 步 优 化 


ID 


3 BNDBN 结构 


在 图 3(b) 中 引入 批量 正则 化 层 即 BN 层 ， 对 输入 特征 进行 
处 理 , 然后 输入 到 激活 函数 层 。 对 于 某 一 层 具有 天 维 的 输入 X ， 
每 一 批 样本 集合 为 D={%.…%} ,网 络 的 隐藏 层 层 数 为 1 ,每 层 对 
输入 的 每 一 维 都 进行 正则 化 ， 公 式 如 下 所 示 : 
ub = za (8) 
gi MAC -upy (9) 
D m 一 i D 

eu) xP -p E D y 
Xi = "a I Me — Hp (10) 
其 中 : x 表示 输入 为 x 的 第 k ES us 表示 计算 样本 集合 D 的 


k 
均值 ，o 表示 计算 样本 集合 D 的 方差 ， 广 表示 对 输入 x 的 每 
维 进行 正则 化 处 理 。 
通过 尺度 变换 和 平移 变换 参数 来 保持 模型 的 表达 能 力 ， 变 


换 后 的 公式 如 下 : 


1 m I I 1 
yn 20 [LS an uP + B® 2 BN, p(x)) (1) 
i-l 


其 中 : y? ÆR 500 批量 正则 化 处 理 后 的 输出 , 然后 输入 到 下 一 

个 非 线性 变换 激活 层 中 。y" B9 与 网 络 中 原 有 参数 一 起 训 

练 学 习 ， 使 用 随机 梯度 下 降 法 计算 梯度 ， 不 断 欠 代 更 新 。 
DBN 网 络 每 个 隐 含 层 最 后 的 输出 计算 如 下 : 


«UD = JOYCDyCO +0) 


o 14 (12) 
-fow (yD 5377 up) + BO 4 D) 
i-l 


为 sigmoid 函数 ， 权 值 W 和 偏 


f()= 


1 
其 中 : dre» 置 b 是 要 


学 习 的 层 参数 。 经 过 批量 正则 化 处 理 的 DBN 需要 使 用 反 向 传 


。BNDBN 方法 引入 尺度 变换 参 


播 算法 计算 代价 函数 梯度 ， 同 时 计算 批量 正则 化 算法 中 引入 的 


2j Y 和 平移 变换 参数 6 ， 对 每 个 隐 层 的 每 


维 输出 特征 进行 批 


参数 。 


录用 稿 
批量 正则 化 处 理 后 的 式 (12) 可 以 用 下 式 代 蔡 : 
z = f (BN (Wu)) (13) 
其 中 的 BN 变换 单独 作用 于 输入 x= Wu 的 每 一 维 分 量 中 。 在 变 


换 输入 中 加 入 参数 为 a 的 尺度 变换 后 ， 对 批量 正则 化 处 理 


BN (Wu) = BN((aW)u) 进行 求 偏 导 得 到 如 下 公式 : 
OBN((aW)u) OBN(Wu) (14) 
Ou Ou 
OBN(aW)u) _ 1 6BN(Wi) (15) 
OaW a oW 


从 式 (14) 和 (15) 中 可 以 看 出 , 在 网 络 的 某 一 层 加 入 参数 为 4 
的 尺度 变换 后 ， 并 没有 影响 梯度 传播 。 另 外 ， 较 大 的 权重 加 入 
尺度 变换 以 后 导致 梯度 减 小 ， 从 而 使 得 引入 的 批量 正则 化 算法 
可 以 保持 参数 训练 时 的 稳定 性 。 
2.3 批量 正则 化 DBN 训练 过 程 

批量 正则 化 DBN 具体 训练 过 程 如 下 : 

a) 数 据 预 处 理 。 将 图 片 进行 灰 度 转换 ， 并 把 灰 度 值 归 一 化 
到 [0,1]; 

b) 使 用 RBM 构建 DBN 网 络 , 初始 化 可 见 层 和 隐藏 层 的 权 
重 矩 阵 和 偏 置 , 设置 学 习 率 、 人 迭代 次 数 以 及 Mini-Batch 的 大 小 ; 
oc) 将 预 处 理 后 的 数据 输入 到 网 络 输入 层 中 ， 采 用 自 下 而 上 
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再 按照 梯度 求 导 公式 对 W 和 更 新 。 


6) 将 测试 数据 输入 训练 好 的 网 络 中 进行 测试 。 在 批量 正则 


化 层 使 用 训练 阶段 中 的 标准 差 的 期 望 和 均值 的 期 望 来 对 测试 数 


据 进行 处 理 ， 如 下 式 所 示 : 


m 2 
Var|x] eu [o] (25) 
PE 无 一 E|x] T 
i AVar|x] +E (26) 
20 Y »E|x] 
AVar[x] +E 29 [^ AVarlx] +E | eD 


其 中 : Eh] 表示 全 部 批 次 均值 的 期 望 值 ，Var[x] 表示 每 个 批 次 标 


的 无 监督 学 习 方 法 预 训练 ， 使 用 式 (4) 计 算 每 个 RBM 隐藏 层 节 


准 差 的 无 偏 估计 。 


点 激活 状态 ， 使 用 式 (5) 计 算 每 个 RBM 可 见 层 节点 激活 状态 ; 
反复 进行 该 步骤 ， 并 对 概率 的 对 数 求 偏 导 ， 最 后 使 用 如 下 公式 
更 新 参数 空间 的 权重 矩阵 和 偏 置 : 
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为 了 验证 本 文 所 提出 算法 的 有 效 性 ， 
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写 体 数据 集 上 分 别 进行 实验 分 析 。 
0-9 阿拉 伯 数 字 组 成 的 60 000 个 训练 样本 
本 集 ， 
训练 集 ，2 000 个 作为 测试 集 。 


inr 
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MNIST 手写 体 数据 集 包 括 由 
和 10 000 个 测试 样 


每 个 图 像 为 28 X 28 的 像素 。 从 中 随机 选取 6 000 个 作为 


写 数字 识别 库 ， 包 括 9 298 个 手写 数字 图 像 ， 均 为 16*16 像素 


其 中 : e 为 学 习 率 ，AW) 是 权重 的 更 新 值 ， Aa, 和 Ab, 是 偏 置 
的 更 新 值 ，(") 是 对 数据 求 期 望 ，(*),,, 表示 重 构 之 前 可 见 层 节 


点 i 与 隐藏 层 节点 j 相 乘 的 值 ，(*) 表示 重 构 之 后 的 值 , 反映 


重 构 模型 的 分 布 。 

d) 进 一 步 优化 BNDBN 网 络 ， 将 预 训练 得 到 的 参数 值 即 权 
重 和 偏 置 作为 该 阶段 参数 的 初始 值 ， 使 用 式 (6)~(9) 对 网 络 的 输 
入 进行 批量 正则 化 处 理 ， 并 输入 到 激活 层 。 然 后 在 网 络 最 顶 
加 入 一 层 Softmax 分 类 器 , 使 用 Mini-Batch SGD 算法 最 小 化 
价 函数 (0) ,计算 代价 函数 的 梯度 , 并 计算 批 正则 化 处 理 变 
中 仿 射 变换 参数 /和 有 。7Y 和 B 求 导 公 式 使 用 链 式 法 则 如 下 : 
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的 灰 度 值 ， 本 文 对 其 灰 度 值 作 了 归 一 化 处 理 ， 选 取 7 000 个 为 


训练 数据 ，4 000 个 为 测试 数据 。 
3.2 ”实验 结果 分 析 
3.2.1 参数 分 析 

实验 在 Windows7 操作 系统 上 运行 
2008b 开发 环境 。 实 验 参数 的 选择 是 进行 大 量 的 实验 之 
的 较为 理想 的 参数 值 。 若 不 计 入 BN 层 ， 本 文选 取 
分 别 为 784-100-100-10 
为 0.9， 初 始 迭 代 次 数 设 为 100。 


， 使 用 MATLABR 
后 选取 
网 络 节点 数 
EU E, mini-batch 设 为 100, 动量 参数 


为 了 测试 学 习 率 对 BNDBN 的 影响 ， 本 文 在 其 他 参数 固定 


的 情况 下 ， 改 变 学 习 率 在 区 间 [0.0005,0.05] 内 变化 。 
和 USPS 数据 集 上 进行 对 比 实验 分 析 ， 如 图 4 和 5 所 示 。 

观察 图 4 可 知 ，BNDBN 算法 具有 很 好 的 分 类 性 能 。 
4 中 可 以 看 出 BNDBN 的 分 类 错误 
DBN 的 下 方 ， 分 类 错误 率 都 在 6% 以 下 。 同 时 ， 本 文 算 法 上 
Dropout-DBN 最 优 时 的 分 类 


错误 率 还 低 了 0.696. 说 明 本 文 算法 


在 MNIST 


从 
吴 率 曲线 都 在 Dropout-DBN 和 
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具有 更 好 的 稳定 性 ， 可 以 使 BNDBN 模型 


主要 特征 。 
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很 好 地 提取 到 数据 的 


法 随 着 学 习 率 变化 的 
音 误 率 低 于 


其 他 算法 ，i 


但 分 类 


步 增加 学 习 率 ， 虽 然 导 致 模 
岂 证 明了 本 文 提出 


进 
效果 比较 好 。 


算法 不 发 散 


传统 DBN 的 贪 禁 无 监督 训练 方法 可 以 有 效 地 提取 数 所 
征 , 各 层 的 权 值 和 偏 置 会 处 于 最 优 的 位 置 , 使 用 


步 训 练 更 容 
果 会 影响 到 
试 BNDBN 
对 比 ， 如 图 
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的 情况 下 进一步 提高 了 网 络 的 分 类 性 能 。 


型 最 初 的 训练 有 点 
É BNDBN 在 保证 


BA 


SGD 


算法 进 


易 使 网 络 收敛 到 最 优 。 因 此 前 一 阶段 参数 的 训练 效 


微调 阶 
在 预 训练 阶段 所 需 最 
6 和 7 所 示 。 
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准确 率 对 比 (MNIST) 


段 的 学 习 ， 进 而 影响 最 终 分 类 效果 。 为 了 测 
迭代 次 数 ， 本 文 进行 了 实验 


图 7 


的 分 类 结果 都 要 高 于 DBN。 在 MNIST 
时 ， BNDBN 的 性 能 最 优 ， 准 确 率 达 到 
和 DBN 达到 最 好 的 分 类 结果 分 别 为 93.7% 和 93.15%. 

USPS 数据 集 , BNDBN 算法 在 迭代 次 数 为 300 次 时 ， 分 类 ; 
率 达到 97.70%， 比 Dropout-DBN 和 DBN 最 好 时 的 分 类 ; 


0 


不 同 


图 6 和 7 可 以 看 出 ， 
RBM 迭代 的 次 数 对 整个 网 络 的 性 能 是 有 
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在 MNIST 和 USPS 中 ， 训 练 每 个 
定 影响 的 ，BNDBN 
H, ERKA 600 次 
95.20%, Dropout-DBN 
对 于 
ET 
EME 


提高 了 0.879658 1.67%。 总 体 来 看 ， 与 其 他 算法 的 对 比 进一步 
表明 本 文 算法 具有 更 好 分 类 效果 。 
为 了 验证 BNDBN 使 用 更 深层 网 络 的 性 能 ， 在 其 他 参数 固 
定 的 情况 下 ， 隐 含 层 节点 为 100， 逐 渐 增 加 隐 含 层 的 个 数 ， 最 
多 增加 到 10 层 ， 在 MNIST 和 USPS 上 进行 分 类 准确 率 对 比 ， 
如 图 8 和 9 所 示 。 
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观察 图 8 和 9 可 知 ， 开 始 增加 隐 含 层 个 数 时 分 类 准确 率 逐 
渐 降 低 ， 在 MNIST 数据 集 上 ，BNDBN 算法 当 隐 含 层 个 数 为 2 
时 ， 获 得 最 优 的 分 类 准确 率 ; 在 USPS 数据 集 上 ， 当 隐 含 层 为 
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算法 的 优点 ， 解 决 了 传统 DBN 训练 方法 存在 的 问题 。 最 后 在 
MNIST 和 USPS 数据 集 上 进行 了 对 比 实验 , 证 明了 本 文 算法 具 
有 良好 的 分 类 效果 。 在 以 后 的 工作 中 继续 侧重 于 网 络 参 数 优化 


5 时 ， 分 类 准确 率 最 好 ; 对 于 Dropout-DBN 算法 ， 在 隐 含 层 个 
数 超过 7 层 以 后 ， 结 果 开 始 变 得 比较 差 ， 但 整体 来 看 ， 本 文 算 
法 都 要 优 于 DBN 和 Dropout-DBN 算法 。 
3.2.2 不 同 算 法 分 类 准确 率 对 比 

为 了 进一步 验证 本 文 算法 的 有 效 性 ， 将 本 文 算法 BNDBN 
与 DBN、Dropout-DBN 以 及 其 他 应 用 比较 广泛 的 分 类 算法 即 
BP, SVM, KNN 和 DBN 在 MNIST 和 USPS 数据 集 上 进行 分 


类 准确 率 的 比较 ， 如 表 2 所 示 。 表 中 所 列 出 的 是 每 种 算法 最 优 

的 分 类 准确 率 。 其 中 , ANN 算法 中 隐 含 层 节 点 为 100, SVM 采 

用 多 项 式 核 函数 , KNN 算法 采用 欧 氏 距离 方法 , K 取 值 为 10。 
表 1 六 种 算法 的 分 类 准确 率 对 比 (%) 

数据 集 BNDBN Dropout-DBN DBN ANN SVM KNN 

MNIST 95.20 93.70 93.15 92.6 94.35 93.00 

USPS 97.70 96.83 96.03 95.33 94.97 93.67 


从 表 1 可 以 看 出 ， 在 MNIST 和 USPS 中 ，DBN 的 分 类 结 
果 明 显 高 于 ANN 算法 , 表明 了 DBN 在 图 像 分 类 任务 中 的 有 交 
性 。Dropout-DBN 算法 虽然 在 一 定 程度 上 改善 了 DBN 存在 的 
过 拟 合 问题 ， 但 是 仍然 受到 参数 的 影响 导致 分 类 准确 率 较 低 。 
而 本 文 算法 BNDBN 相对 于 这 五 种 算法 都 取得 了 最 优 的 分 类 准 
确 率 ， 说 明 本 文 算法 在 一 定 程度 上 解决 了 DBN 存在 的 不 足 ， 
改善 了 DBN 的 分 类 效果 。 

3.2.3 训练 时 间 对 比分 析 

表 2 给 出 了 BNDBN、Dropout-DBN、DBN、BP、SVM 和 
KNN 算法 在 MNIST 和 USPS 数据 集 上 的 训练 时 间 对 比 。 从 表 
中 可 以 看 出 ， 由 于 使 用 深度 神经 网 络 的 深层 结构 ， 计 算 复杂 度 
比较 大 ， 所 以 相 比 较 于 传统 分 类 算法 SVM 和 KNN， 训 练 时 间 
较 长 , 但 分 类 准确 率 比较 高 ，BNDBN 相对 于 DBN 和 Dropout- 
DBN， 训 练 时 间 都 是 最 少 ， 而 且 在 较 少 时 间 内 比 Dropout-DBN 
和 DBN 的 最 好 分 类 准确 率 分 别提 高 1.5% 和 2% 左 右 ; 说 明 本 
文 算法 BNDBN 在 训练 时 间 上 仍 有 进一步 的 提升 ， 加 快 了 训练 
的 收敛 速度 ， 具 有 较 优 的 分 类 性 能 。 


表 2 不 同 算法 的 训练 时 间 对 比 /min 


数据 集 BNDBN  Dropou-DBN DBN ANN SVM KNN 
MNIST 16.86 20.61 37.62 5.00 018 5.57 
USPS 5.31 7.93 8.47 4.04 0.19 3.09 


4 tmi 


本 文 提 了 一 种 批量 正则 化 DBN 分 类 方法 ， 并 将 它 应 用 到 
分 类 识别 中 。 首 先 介绍 了 深度 置信 网 络 (DBN) 的 结构 ， 然 后 记 
细 描 述 了 批量 正则 化 DBN 分 类 方法 及 其 训练 过 程 ， 该 方法 不 
仅 利用 了 DBN 的 优异 的 特征 提取 能 力 ， 同 时 基于 批量 正则 化 


方面 的 问题 ， 进 一 步 提升 算法 的 特征 提取 能 
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